Semantisierung des Textes im Lichte und im Schatten der Text Encoding Initiative (TEI)

نویسندگان

  • Patrick Sahle
  • Torsten Schaßan
چکیده

Der Ansatz der Textauszeichnung (“textual markup”) ist zur semantischen Erschließung von Texten des kulturellen Erbes nahezu alternativlos. Die Stärke von Auszeichnungssprachen, die ihren Gegenstand zugleich als sequentielle, als hierarchische und als netzartige Datenstruktur behandeln, kommt insbesondere den komplexen Wiedergabeund Analyse-Anforderungen an historische Texte entgegen. Lokale Anwendungen orientieren sich vor allem an den Richtlinien der Text Encoding Initiative (TEI). Diese der TEI zeigen allerdings keine Orientierung an der semantischen Ausdrucksfähigkeit der verschiedenen Elemente. Notwendig wären klarere Vorgaben zur Codierung semantischer Informationen, die Entwicklung von Crosswalks und Mappings zu Normdatensystemen und anderen Standards und Ontologien, sowie die Entwicklung domänenspezifischer “Application Profiles”, um die Verwendung des TEI-Tagsets für semantische Fragestellungen weiter zu entwickeln.

برای دانلود رایگان متن کامل این مقاله و بیش از 32 میلیون مقاله دیگر ابتدا ثبت نام کنید

ثبت نام

اگر عضو سایت هستید لطفا وارد حساب کاربری خود شوید

منابع مشابه

"Kodierung und Normierung maschinenlesbarer Texte" - Bericht aus dem GLDV-Arbeitskreis

Dieser Arbeitskreis wurde im Herbst 1991 auf der GLDV-Tagung in Trier gegründet. Er verstand sich als ein lokales deutschsprachiges Forum für die weltweite Text Encoding Initiative (TEI), die damals gerade den ersten Teil ihrer Arbeit mit der Herausgabe von "Guidelines" abgeschlossen hatte1. Da die zweite Phase des TEI-Projekts zeitlich sehr knapp kalkuliert worden war, man plante, im Sommer 19...

متن کامل

Aufbau eines Referenzkorpus zur deutschsprachigen internetbasierten Kommunikation als Zusatzkomponente für die Korpora im Projekt 'Digitales Wörterbuch der deutschen Sprache' (DWDS)

Dieser Beitrag gibt einen Überblick über die laufenden Arbeiten im Projekt „Deutsches Referenzkorpus zur internetbasierten Kommunikation“ (DeRiK), in dem ein Korpus zur Sprachverwendung in der deutschsprachigen internetbasierten Kommunikation aufgebaut wird. Das Korpus ist als eine Zusatzkomponente zu den Korpora im BBAW-Projekt „Digitales Wörterbuch der deutschen Sprache“ (DWDS, http://www.dwd...

متن کامل

Webkorpora in Computerlinguistik und Sprachforschung Web Corpora for Computational Linguistics and

Dieser Beitrag gibt einen Überblick über die laufenden Arbeiten im Projekt „Deutsches Referenzkorpus zur internetbasierten Kommunikation“ (DeRiK), in dem ein Korpus zur Sprachverwendung in der deutschsprachigen internetbasierten Kommunikation aufgebaut wird. Das Korpus ist als eine Zusatzkomponente zu den Korpora im BBAW-Projekt „Digitales Wörterbuch der deutschen Sprache“ (DWDS, http://www.dwd...

متن کامل

Bericht über die TEI-Workshops am Zentrum für Datenverarbeitung der Universität Tübingen

Vom 15.-17. November fand am ZDV der Universität Tübingen ein Workshop zum Thema SGML-konformen Textauszeichnung nach den Richtlinien der Text Encoding Initiative (TE/) statt, der infolge des großen Andrangs vom 11.13. März 1996 wiederholt wurde. Insgesamt 80 Teilnehmer/innen aus ganz Europa, die elektronische Texte einsetzen für kritische Edition von Einzeltexten und Textsammlungen, linguistis...

متن کامل

Representation schemes for language data: the Text Encoding Initiative and its potential impact for encoding African languages

The Text Encoding Initiative (TEI)Guidelines for the Encoding and Interchange of Machine-Readable Texts provide standardized encoding conventions for a large range of text types and features relevant for a broad range of applications. Given the potential challenges of encoding texts in the African languages, it will be important to establish collaboration between the TEI and projects encoding l...

متن کامل

ذخیره در منابع من


  با ذخیره ی این منبع در منابع من، دسترسی به آن را برای استفاده های بعدی آسان تر کنید

عنوان ژورنال:
  • KI

دوره 23  شماره 

صفحات  -

تاریخ انتشار 2009